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基于 音频 基 频 特征 的 鲁 棒 零 水 Fh 算法 


郊 梦 怡 ， 李 ” 晨 ， 田 丽华 


(西安 交通 大 学 软件 学 院 , 西安 710049) 


摘 要 : 为 了 将 数字 音频 水 印 技术 与 音频 内 容 相 结合 ， 基 于 人 声 和 乐器 的 基 频 稳定 的 特点 ， 从 音乐 中 提取 出 基 频 并 据 
此 设计 一 种 鲁 棒 零 水 印 方法 。 首 先 通 过 正规 化 分 谐 波 登 加 算法 提取 大 频 ， 然 后 采用 K-means 算法 对 基 频 特征 进行 编码 
加 强 其 稳定 性 ， 最 后 与 水 印 图 像 异 或 生成 零 水 印 序列 。 此 外 ， 发 生 恶意 窜改 时 ， 对 比 零 水 印 中 的 基 频 信息 得 到 不 一 臻 
的 部 分 ， 即 可 确定 恶意 窜改 区 域 。 实 验 结果 表明 ， 此 算法 在 常规 攻击 及 拉动 攻 下 均 具 有 良好 的 稳定 性 ， 且 可 实现 窜改 
给 测 。 
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Robust zero-watermarking algorithm based on audio fundamental frequency feature 


Zheng Mengyi, Li Chen, Tian Lihuat 
(School of Software Engineering, Xi’an Jiaotong University, Xi’an 710049, China) 


Abstract: In order to combine the digital audio watermark technology with the audio content, because of the stability of the 
fundamental frequency of the human voice and musical instruments, this paper designed a robust audio zero-watermarking 
method based on the fundamental frequency of music. Firstly, the normalized subharmonic summation algorithm extracted the 
fundamental frequency from each frame of the audio signal. Then, the K-means algorithm encoded the extracted fundamental 
位 equencies so as to further improve the stability of the feature. Finally, the encoded fundamental frequencies XOR with the 
watermark image to generate a zero watermark sequence. Besides, when the audio is maliciously tampered, it can get the 
inconsistent part of the audio signal by comparing the fundamental frequency information contained in the zero watermark 


sequence. At the inconsistent section, the algorithm can detect the maliciously tampered area. The experiment results show that 


the proposed algorithm has good robustness against common attacks and jitter attacks, and the results also prove that the 


algorithm can detect and locate the tampering. 


Key Words: digital audio watermarking; robust zero watermark; normalized subharmonic summation; fundamental frequency; 


tamper detection 


[4] 提出 一 种 基于 DWT-SVD 的 零 水 印 算法 , 该 算法 需要 保证 

音频 长 度 大 于 1 024 倍 的 水 印 图 像 尺 寸 ， 且 音频 大 于 所 需 部 分 

极速 发 展 的 计算 机 和 互联 网 络 技 术 促 使 数字 产品 的 产生 、 被 舍弃 ， 对 测试 音频 的 选择 有 严格 要 求 ; 此 外 ， 对 于 抖动 攻 了 
保存 和 传输 变 得 更 加 便利 。 与 此 同时 ， 非 法 复制 等 盗版 问题 也 ”该 算法 鲁 棒 性 不 强 。 文 献 [5] 所 述 的 DWT 与 SVD 相 结合 的 
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越 来 越 严 重 。 为 了 解决 数字 产品 的 恶意 侵权 及 版 权 纠纷 问题 ， 水 印 算法 同文 献 [4] 思 路 相似 , 虽然 对 于 普通 攻击 鲁 棒 性 较 好 ， 
水 印 技术 作为 一 种 版 权 保护 技术 被 提出 ， 并 且 已 经 成 为 当前 解 ”然而 同文 献 [4] 存在 的 问题 类 似 , 提取 的 特征 不 能 直观 代表 版 
决 此 类 问题 的 有 效 工具 "1 。 权 信 息 。 文献 [6] 提出 一 种 基于 音频 特征 和 低频 系数 较 小 值 的 


数字 音频 水 印 技术 是 在 保证 听觉 效果 的 基础 上 ， 把 水 印信 ”水 印 算法 ， 该 算法 需要 选取 适当 的 闵 值 舍弃 部 分 音频 帧 ， 算 法 
息 隐 藏 于 音频 中 的 技术 ， 实 现 对 数字 音频 产品 的 版 权 保 护 ， 即 ” ”的 稳定 性 欠 佳 ， 且 对 于 MP3 压缩 攻击 鲁 棒 性 较 差 。 文 献 [7] 
嵌入 水 印 后 保证 音频 具有 透明 性 ?] 。 文 献 [3] 根据 DCT 系 提出 用 于 内 容 认 证 的 零 水 印 算法 ， 构 造 零 水 印 的 特征 是 音频 低 
数 符号 具有 稳定 性 的 特点 提出 一 种 零 水 印 算法 ， 该 算法 鲁 棒 性 。” ” 频 分 量 , 该 算法 对 于 抵抗 滤波 攻 鲁 棒 性 较 弱 。 文献 [8] 提出 一 
较 好 , 但 是 作为 音频 特征 的 DCT 系数 符号 不 备 实际 意义 ,文献 。 种 基于 音频 帧 的 过 零 率 和 短 时 能 量 特征 的 水 印 算法 ， 该 算法 简 
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单 易 懂 ， 但 是 对 于 噪声 和 MP3 压缩 攻击 鲁 棒 性 较 差 。 为 此 帧 的 特征 基 频 ， 这 些 基 频 不 一 定 属于 音频 中 的 同一 声 源 ， 
于 音频 中 基 频 特征 具有 稳定 性 ， 且 作为 音频 特征 与 各 种 ”每 帧 提取 出 的 基 频 特征 不 需要 根据 某 种 声 源 进行 筛选 ， 一 方面 
变换 系数 相 比 具 有 直观 的 实际 意义 ， 本 文 提 出 了 一 种 基于 音频 ”是 为 了 避免 由 于 某 些 帧 某 种 声 源 的 停顿 导致 此 帧 出 现 特征 缺失 
基 频 特征 的 鲁 棒 零 水 印 算法 。 首 先 对 输入 音频 信号 进行 小 波 近 ”的 情况 ， 男 一 方面 由 于 每 帧 的 基 频 仅 根据 当前 帧 能 量 分 布 情况 
似 系数 重 构 预 处 理 ， 然 后 根据 正规 化 分 谐 波 县 加 算法 计算 每 帧 。” 提取 ,无 须根 据 茶 种 特定 声 源 的 限制 进行 基 频 特征 的 选择 取舍 ， 
的 多 个 基 频 ， 根 据 候 选 基 频 集 提取 能 量 最 强 的 基 频 。 由 于 信号 ”所 以 彼此 间 没 有 直接 关联 ， 当 某 一 帧 提取 出 的 基 频 特征 发 生 改 
的 基 频 具有 比较 稳定 的 特点 ， 所 以 该 特征 生成 的 零 水 印 序列 抵 ”” 动 时 不 会 影响 其 余 帧 基 频 的 提取 。 因 此 ， 本 方案 得 到 的 音频 基 
抗 常见 攻击 具有 良好 的 鲁 棒 性 。 由 于 各 帧 的 基 频 特征 在 提取 过 ” 频 特 征 序列 不 仅 具 有 基 频 特征 特点， 还 可 以 用 
程 中 互 不 影响 ， 当 音频 遭 到 局 部 窜改 时 ， 通 过 比较 窜改 前 后 的 。 ”于 齐 改 检测 。 图 1 描述 了 特征 提取 的 基本 流程 。 

基 频 特征 序列 ， 可 以 确定 特征 改变 的 帧 ， 这 些 发 生变 化 的 帧 所 
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在 的 区 域 即 为 窜改 区 域 ， 所 以 本 算法 可 以 实现 对 恶意 窜改 的 准 音频 信号 ”| 一 让 。 预 处 理 | 国定 帧 数 分 由 
确定 位 I 
1 “理论 基础 提取 村 频 特 征 < 一 | 开 们 人 说 注 stp 
1.1 零 水 印 
i ee 图 1 音频 基 频 提取 流程 

零 水 印 技术 是 一 种 无 须 实 际 向 载体 信号 中 乱入 水 印信 息 的 
水 印 技术 ， 是 根据 音频 信号 的 某 些 重要 特征 ， 将 特征 信息 与 水 2.1 预 处 理 
印 图 像 结合 生成 “ 零 水 印 ”"”] 。 因 此 ， 零 水 印 算法 不 存在 嵌 水 由 于 人 声 和 乐器 的 基 频 通常 位 于 中 低频 ， 为 降低 高 频 信 息 
印 过 程 中 产生 的 隐蔽 性 与 鲁 棒 性 之 间 冲 突 的 问题 。 对 提取 基 频 特征 的 影响 ， 首 先 对 原始 音频 进行 小 波 变换 近似 系 
1.2 音乐 基 频 特征 数 重 构 的 预 处 理 。 近 似 系数 就 是 信号 中 大 尺度 的 低频 部 分 ， 很 


音乐 的 基 频 是 音频 振动 系统 中 频率 最 低 的 回 有 成 分 〈 即 基 ”多 信号 中 低频 信息 是 最 重要 的 部 分 ， 基 本 包含 了 信号 的 基本 特 
音 ) 处 的 频率 , 它 决定 音 高 , 作为 音频 信号 的 最 基本 特征 之 一 ， 征 。 图 2( 上 ) 所 示 的 波形 图 为 原始 音频 ， 图 2( 下 ) 显 示 的 是 3 级 
在 音乐 信息 检索 系统 中 被 广泛 使 用 "10 ,而 本 文选 取 基 频 作为 音 。 ”小 波 变换 近似 系数 重 构 后 的 音频 波形 。 
频 信号 特征 的 主要 原因 是 基 频 具有 稳定 性 且 可 表达 音频 内 容 信 
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息 的 特性 。 和 ol ] 
1.3， 正 规 化 分 谱 波 到 加 (NSHS) 算法 Www 

基于 音频 的 谐 波 位 于 基 频 的 倍 频 处 的 特点 ， 分 谐 波 闯 加 Ea ] 
人 shs) 算 法 通过 把 各 次 谐 波 的 能 量 不 断 受 加 到 基 频 处 ， 实 现 增强 0 0 
三 频 能 量 突出 基 音 的 目的 5 。Hsu 等 人 2 提出 的 正规 化 分 谐 .9°3| l ] 
波状 加 算法 ， 是 在 传统 分 谐 波 秋 加 算法 的 基础 上 ， 把 每 个 频率 oh Ny 
乘 以 一 个 系数 1/ "ha, 避免 了 传统 算法 因 多 次 匡 加 造成 低频 Em ] 
能 量 的 过 度 增 加 的 缺点 ， 达 到 在 不 过 度 增加 低频 及 基 频 能 量 的 . i 
前 提 下 ， 削 减 高 阶 谐 波 对 基 音 产生 的 影响 ， 准 确 提取 出 基 频 的 0 


图 2 原始 音频 信号 与 小 波 变 换 近 似 系数 重 构 信号 


的 951 。 其 中 全 加 谱 定 义 如 下 ;: 


i 由 图 2 可 以 看 出 ， 小 波 变换 近似 系数 重 构 后 的 音频 信号 比 
交 光 滑 ， 高 频 部 分 得 到 抑制 ， 一 定 程度 上 噪声 影响 ， 
y Ph ee 定 程度 上 降低 了 噪声 影响 ， 有 
和 基 频 特征 的 提取 。 
(1) Ny 2.2 固定 帧 数 分 帧 
访 : 砚 音频 预 处 理 后 ， 对 其 进行 固定 帧 数 有 重 且 的 分 帧 。 
| 采用 有 重 羡 的 分 帧 方法 的 原因 是 音频 信号 的 变化 是 连续 的 ， 
所 以 分 帧 后 音频 信号 的 特征 参数 应 该 平滑 变化 ， 通 过 有 重 双 的 


其 中 : hh = 0.84"-1; Nj = floor (三 ): 大 为 采样 频率 。 


分 帧 可 以 使 相 邻 帧 闻 首 尾 衔接 平 组 过渡， 避免 提 取出 的 特征 参 
数 不 连续 。 
这 里 选择 固定 帧 数 分 帧 是 为 了 减少 时 间 尺 度 上 的 伸缩 对 提 
算法 提取 基 频 特征 的 主要 工作 是 首先 得 到 每 帧 音频 信号 的 。 取 基 频 特征 造成 的 影响 。 其 次 ， 由 于 构造 零 水 印 需要 从 每 帧 提 
多 个 基 频 ， 再 在 每 一 帧 的 基 频 候选 集中 选取 能 量 最 大 的 基 频 作 取出 一 个 特征 点 与 一 位 水 印信 息 进行 异 或 运算 ， 特 征 点 的 个 数 


2 ”音频 基 频 特征 提取 
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要 与 待 嵌 入 的 水 印 图 像 的 像素 点 数 相 一 致 ， 所 以 分 帧 的 个 数 量 明 显得 到 抑制 ， 由 于 局 部 能 量 峰 值 处 的 频率 构成 所 求 候选 基 
水 印 图 像 确定 为 一 个 固定 的 值 。 频 集 ， 所 以 对 谐 波 合 加 后 的 信号 进行 峰值 检测 及 提取 候选 基 频 
2.3 提取 基 频 特征 更 加 有 利 。 同 时 ， 由 图 3 可 以 看 出 ， 秋 加 后 谐 波及 其 他 频率 处 


对 分 帧 后 每 一 帧 音频 信号 进行 STFT 转换 到 频 域 ， 然 后 采 ”的 能 量 均 低 于 基 频 能 量 ， 所 以 ， 对 于 NSHS 登 加 后 的 每 帧 信号 
用 NSHS 算法 提取 每 帧 的 候选 基 频 集 。 由 于 根据 NSHS 算法 ， ”提取 出 的 候选 基 频 集 , 能 量 最 强 的 频率 即 为 这 一 帧 的 基 频 特征 
各 次 谐 波 被 搬移 到 基 频 上 并 对 基 频 能 量 进行 全 加 ， 所 以 基 频 处 ”将 其 加 入 到 基 频 特征 序列 中 并 保存 。 


的 能 量 相对 于 其 他 频率 处 的 能 量 得 到 增强 ， 基 频 处 的 能 量 峰值 图 4 为 各 种 攻击 下 提取 出 的 基 频 特征 F0 与 原始 音频 基 频 
更 突出 , 有 益 于 提取 基 频 特征 。 图 3( 上 ) 是 原始 音频 某 一 帧 的 频 特征 F0 的 对 比 结果 。 图 中 ， 实 线 表 示 原 始 音频 基 频 特征 ， 虚 线 
谱 图 ， 图 3( 下 ) 是 同一 帧 正规 化 分 谐 波 盖 加 后 的 频谱 图 。 代表 遭 到 攻击 后 的 音频 提取 的 基 频 特 征 ， 全 为 音频 原始 采样 频 
CE E 率 。 若 攻击 后 的 基 频 特征 与 原始 基 频 特征 一 样 ， 则 此 处 基 频 特 
Re ] 征 点 重奏 ， 图 中 只 会 显示 原始 音频 基 频 ， 而 不 重 登 部 分 即 为 攻 
EW WN 人 wwN 击 后 出 现 偏差 的 基 频 。 需 要 说 明 的 是 ， 这 里 提取 出 的 基 频 特征 
| pe 上 WW 不 一 定 属于 音频 同一 声 源 的 基 频 ， 选 择 最 强 基 频 是 为 了 避免 
盖 商 一 疝 一 南 - 南 一 南 一 商 一 让 站 1 由 于 歌声 歌唱 间隙 或 乐器 演奏 停顿 时 ， 造 成 某 一 帧 某 一 种 声 源 


Frequency (Hz) 
T 


基 频 特征 缺失 从 而 导致 无 法 与 零 水 印 图 像 进行 运算 的 情况 ， 所 
] 以 本 文 设计 的 方案 提取 出 的 基 频 特征 在 某 些 帧 会 出 现 图 9 中 显 
Peg nh ne 示 落差 较 大 的 情况 。 

| 图 4(a) 和 (b) 可 以 看 出 上 、 下 采样 对 基 频 特征 完全 无 影响 ; 
(oj-~(9 中 可 以 看 出 低 通 滤波 、 噪 声 、MP3 压缩 和 拌 动 攻击 后 
的 基 频 出 现 偏差 点 ， 但 是 攻击 后 基 频 特征 曲线 与 原始 音频 基 频 
图 3 可 以 看 出 , 经 过 NSHS 盈 加 后 , 在 基 频 处 ( 约 150 Hz) 特征 整体 上 基本 一 致 。 因此, 由 图 4 可 以 看 出 , 在 各 种 攻击 下 ， 
出 现 了 明显 的 峰值 ， 非 峰值 部 分 比较 平稳 ， 并 且 高 频 部 分 的 能 “音频 的 基 频 特征 具有 良好 的 稳定 性 。 
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图 3 原始 音频 频谱 及 NSHS 合 加 结果 
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图 4 攻击 后 的 基 频 与 原始 音频 基 频 对 比 


此 外 ， 由 于 算法 中 每 帧 提取 出 的 基 频 与 其 他 帧 的 基 频 之 间 
3 ， 水印 藤 入 和 提 
没有 直接 的 关联 ， 在 遭 到 窜改 攻击 时 ， 仪 在 窜改 处 的 基 频 特征 kk 印 能 入 和 提取 
受到 影响 产生 差异 , 而 未 受 攻击 处 的 基 频 特征 并 不 会 受到 影响 ， 3.1 基于 基 频 特征 生成 零 水 印 二 值 序列 
所 以 利用 该 特征 可 以 准确 定位 窜改 。 图 5 所 示 的 是 零 水 印 二 值 序列 生成 ， 即 零 水 印 的 奏 入 过 程 。 
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图 5 零 水印 二 值 序列 生成 过 程 


以 大 小 为 PxQ 的 有 意义 的 二 值 图 像 作为 本 文 方法 的 水 印 
图 像 ， 其 中 P 和 Q 为 水 印 图 像 像 素 的 行 数 和 列 数 ，PxQ=n，n 
为 总 像素 点 数 , 水 印 图 像 可 表示 为 二 {w(a, 5b), 0<a<P,0<b<Q}。 
零 水 印 序列 的 生成 步骤 如 下 ; 

a) 将 原始 二 维 的 水 印 图 像 降 维 成 
表示 为 


ATS 


全 序列 ， 则 此 二 值 图 可 


T={1(0),0<i<n} O) 

b) 记 录 已 提取 的 基 频 特征 为 fii), 其 中 i 表示 帧 号 , 0<i<n， 

n 表示 总 帧 数 。 为 了 表达 基 频 特征 变化 的 整体 趋势 特征 ， 本 文 

选择 0、! 编码 来 表示 基 频 特征 ， 这 就 需要 将 特征 分 为 两 类 , 将 

其 中 一 类 编码 为 1， 另 一 类 编码 为 0, 采用 k-means 聚 类 方法 可 

以 快速 将 基 频 特征 fg) 分 成 两 类 Cl 和 C2， 然 后 根据 式 (3) 将 其 
编码 成 一 个 特征 二 值 序列 KGi)。 


1, FaDecl 


(= be FCD ec2 0) 


9 对 水 印 图 像 I 与 特征 二 值 序列 KGi) 进 行 异 或 运算 ， 即 可 
得 到 含有 特征 的 二 值 序列 W。W 为 
W(i) =1() ® KO (4) 
gj) 记录 并 保存 得 到 的 零 水 印 二 值 序列 W。 
3.2 零 水 印 图 像 提 取 
图 6 为 零 水 印 图 像 的 提取 过 程 。 


基 频 特征 水 印 图 像 


v 时 


k-means 编码 降 维 


零 水印 一 值 序 
列 


图 6 零 水 印 提取 过 程 
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零 水 印 的 提取 不 需要 原始 音频 载体 ， 只 需要 基 频 特征 序列 
K 和 二 值 水 印 序列 W， 具 体 步骤 与 生成 二 值 序列 相似 。 

a) 根 据 各 种 攻击 后 的 音频 信号 得 到 的 加 攻击 后 的 基 频 特征 
f(i)，0<i<n, 其 中 i 为 帧 号 ，n 为 总 帧 数 ， 使 用 K-means 聚 类 得 
到 基 频 特征 的 二 值 序列 K*(Gi)。 

b) 将 特征 二 值 序列 K’Q) 与 之 前 得 到 的 零 水 印 二 值 序列 W 
异 或 ， 即 可 提取 出 水 印 图 像 了 (i), 了 PQ) 为 

IT'() = W(i)@K'() (5) 


4 ”仿真 实验 及 结果 分 析 


实验 部 分 分 为 鲁 棒 性 测试 和 窜改 检测 两 部 分 ， 分 别 对 零 水 
印 算法 的 鲁 棒 性 和 窜改 检测 功能 进行 实验 和 结果 分 析 。 


4.1 和 鲁 棒 性 测试 

实验 使 用 MATLAB 2010b 软件 进行 仿真 测试 , 对 不 同类 型 
测试 音频 信号 进行 上 采样 (速度 为 2 倍 原始 采样 频率 剑 ) 、 下 
采样 (速度 为 原始 采样 频率 fs 的 112) 、 低 通 滤波 (截止 频率 
为 5SkHz) 、 加 高 斯 白 噪声 (20 dB) 、 MP3 压缩 (速率 为 128 
kbps) 、 拌 动 攻 击 (100〉。 采 用 归 一 化 相关 系数 (NC) 和 比特 误 
码 率 (BER) 作 为 测试 指标 进行 鲁 棒 性 测试 及 分 析 。 水 印 图 选用 
有 意义 的 二 值 图像 ， 大 小 为 32x32。 
图 7 是 在 流行 乐 测试 样 例 下 , 音频 的 采样 频率 (fs) 为 44 100 
Hz， 时 间 长 度 为 27s， 在 各 种 攻击 下 ， 本 算法 提取 出 的 水 印 图 
像 的 结果 。 
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图 7 各 种 攻击 下 提取 出 的 水 印 图 像 


图 7 中 提取 出 的 水 印 图 像 可 以 看 出 ， 本 文 提出 的 零 水 印 
算法 在 不 同 攻 击 下 ， 仍 然 可 以 提取 出 清晰 的 水 印 图 像 ， 证 明了 
基于 基 频 特征 的 零 水 印 算法 在 以 上 常见 的 各 种 攻击 下 具有 较 强 
的 稳定 性 。 

对 于 受到 各 种 攻击 后 提取 出 的 水 印 图 像 ， 计 算 水 印 算法 的 
两 个 鲁 棒 性 评价 指标 NC 值 和 BER 值 , 其 中 , NC 值 越 大 , BER 
值 越 小 ， 则 说 明 受 到 攻击 后 提取 出 的 水 印 图 像 与 原水 印 图 像 越 
接近 ， 水 印 算 法 的 抵抗 各 种 攻击 的 鲁 棒 性 越 强 。 实 验 选取 了 流 
行乐 、 轻 音乐 和 摇滚 乐 三 种 不 同 风格 的 音乐 ， 并 针对 每 种 风格 
的 音乐 选取 同一 段 音 频 , 与 文献 [3] 和 文献 [4] 的 算法 进行 鲁 棒 性 
对 比 测 试 ， 结 果 如 表 1~3 所 示 。 


201805.00366v1 


国 
国 


XIV 


na 


i 


录用 入 gi fe VE 
ee 的 稳定 性 。 且 本 文中 采用 固定 帧 数 有 重 苍 的 分 帧 方法 ， 帧 长 随 
AR 首 频 变化 可 调 ， 音 频 在 遭 到 攻击 ， 尤 其 是 拉动 攻击 时 ， 局 部 变 
a 比 引起 时 间 尺 度 上 的 伸缩 对 于 分 帧 后 的 音频 信号 的 影响 较 小 ， 
上 1 0 1 0 os 00039 文献] 算法 方案 中 采用 的 无 重 登 分 帆 方 法 是 导致 其 抵抗 拉动 
下 采样 BDI 1 0 。 09994 00009 09994 0.0010  ” 交 击 性 能 不 如 本 算法 的 一 个 原因 ; 而 文献 [4] 算 法 需要 同时 保证 
你 通 六 波 。。 | 0。 09930 00117 08821 01895 种 长 为 一 个 设 定 的 信和 且 帧 数 等 于 水 印 长 度 ， 当 攻击 导致 音频 发 
加 噪 20db 0.9965 0.0059 0.9913 0.0146 0.9913 0.0146 生变 化 时 其 每 帧 采样 点 发 生 较 六 改变 ， 并 且 随 着 帧 数 增加 这 种 
MP3 压缩 凯 差 会 变 大 ， 所 以 ， 对 于 测试 的 三 种 风格 的 音频 ， 在 抖动 攻击 
cioBkbpe) 09854 00244 09784 0.0361 09971 00049 下 本 文 提出 的 零 水 印 方案 比 文献 [4 和 鲁 棒 性 好 。 
抖动 +100 0.9907 0.0156 0.9831 0.0283 0.9320 0.1113 综 上 所 述 ， 对 于 不 同 风格 的 音乐 ， 本 文 提出 的 基于 基 频 特 
征 的 零 水 印 算法 不 仅 在 各 种 普通 攻击 及 抖动 攻击 下 均 具 有 良好 
表 2 轻音乐 在 各 种 攻击 下 提取 水 印 的 NC 和 BER 值 的 鲁 棒 性 ， 而 且 基 频 特征 相 较 于 其 他 文献 中 提取 的 系数 特征 或 
ee 符号 特征 对 于 音频 内 容 而 言 具有 更 为 实际 和 直观 的 意义 。 
SiR NC BER NC BER NC BER 4.2 窜改 检测 定位 
0 根据 本 文 提出 的 算法 每 帧 音频 基 频 特征 是 互 无 关联 地 提取 
下 来 样 人 2) 1 0 1 0 09994 00010 的 特点 如 果 音频 受到 恶意 审改 ， 仅 被 审改 部 分 音频 的 基 频 特 
低 通 滤波 1 0 0.9930 0.0117 0.9959 0.0068 征 会 发 生 改变 ， 因 此 通过 比较 音频 的 基 频 特征 即 可 确认 是 否 发 
加 噪 20db 。 0.9942 0.0098 0.9977 0.0146 0.9959 0.0068 生 窜改 ， 着 茶 些 帧 的 基 频 特征 出 现 不 一 致 且 这 些 帧 集中 在 一 定 
ee 的 区 域 ， 则 说 明 音 频 在 此 区 域内 受到 了 局 部 窜改 ， 定 位 此 区 域 
sil ee le One, Daag 0 为 窜改 区 域 。 
抖动 +100 0.9965 0.0059 0.9328 0.1104 0.9485 0.0850 8( 上 ) 为 原始 音频 信号 波形 图 ， 图 8( 中 ) 是 对 原始 音频 的 
5~6s 静音 窜改 后 的 波形 图 , 图 8( 下 ) 为 原始 音频 的 2~3s 被 5~6 
Oe s 处 普 换 后 的 音频 波形 ,为 突出 展示 窜改 部 分 , 选取 音频 的 前 6 
ee 本 算法 。。 文献 D] 算 法。 文献 [4 算法。 展示 在 图 片 中 。 


NC BER NC BER NC BER 


上 采样 (2fs) 1 0 1 0 0.9983 0.0029 
下 采样 (fs/2) 1 0 0.9977 0.0039 0.9988 0.0020 
低 通 滤波 0.9954 0.0078 0.9807 0.0322 0.9593 0.0674 
加 噪 20db 0.9907 0.0156 0.9820 0.0303 0.9913 0.0146 So 
MP3 压缩 人 0 

0.9930 0.0117 0.9954 0.0078 0.8249 0.2715 | 
(128kbps) ] 

0 1 2 3 4 5 6 

抖动 +100 0.9742 0.0430 0.8682 0.2090 0.8347 0.2578 


n 哺 


表 1 实验 结果 可 以 看 出 ， 针 对 于 流行 音乐 ， 本 文 提出 的 
水 印 算法 与 文献 [3] 方 案 相 比 鲁 棒 性 测试 结果 均 优 于 其 结果 ; 在 
与 文献 [4 算法 鲁 棒 性 测试 结果 比较 时 发 现 , 本 算法 在 除 MP3 攻 
击 外 的 其 他 常规 攻击 下 均 具有 较 强 的 鲁 棒 性 ， 尤 其 在 低 通 滤波 
和 抖动 攻击 下 明显 优 于 文献 [和 算法 。 由 表 2 结果 所 示 ， 对 于 轻 窜改 攻击 后 的 基 频 特征 及 检测 定位 结果 如 图 9 所 示 。 为 放 
音乐 ， 本 文 提出 的 算法 鲁 棒 性 均 良好 ， 而 文献 [3] 提 出 的 水 印 算 窜改 的 部 分 以 便 观察 ， 选 取 前 500 帧 的 结果 在 图 片 中 展示 。 
法 在 MP3 压缩 和 抖动 攻击 下 稳定 性 均 比 较 差 ;文献 [4] 算 法 在 。 为 了 清楚 地 对 比 展示 帘 改 检测 的 结果 ， 图 9 中 将 窜改 后 的 基 频 
抖动 攻击 下 和 鲁 棒 性 较 弱 。 表 3 实验 结果 显示 了 对 于 摇滚 乐 ， 本 ”特征 和 检测 定位 放 在 同一 幅 图 中 , 图 9(a) 中 上 半 部 分 的 特征 图 
文 提出 的 算法 在 各 种 攻击 下 仍然 很 稳定 ,而 文献 [3] 中 的 算法 在 。 是 将 第 5~6s 约 188~224 帧 ) 静音 处 理 后 的 音频 的 基 频 特征 ， 
拌 动 攻击 下 重 棒 性 较 差 ， 文献 [ 和 ] 算 法 在 MP3 压缩 和 抖动 攻击 ”图 9(a) 下 半 图 为 静音 帘 改 后 在 音频 信号 上 的 检测 定位 结果 , 图 
下 稳定 性 均 非 常 弱 。 这 主要 是 由 于 基 频 特征 具有 较 好 稳定 性 ， 9(b) 是 用 5~6 s( 约 188~224 帧 ) 替换 2~3 s (76~112 帧 ) 处 的 
且 本 算法 将 提出 的 基 频 特征 做 K-means 聚 类 编码 ， 经 编码 生成 ” ”音频 特征 (上 ) 及 替换 后 在 音频 信号 上 窜改 检测 定位 的 结果 (下 )。 
的 二 值 序列 对 各 种 攻击 的 敏感 性 降低 ， 进 一 步 增强 了 水 印 特征 


3 
time(s) 


图 8 原始 音频 信号 和 窜改 后 的 音频 信号 
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(b) 窜 改 攻 击 2 后 的 基 频 特征 和 检测 定位 
图 9 帘 改 后 的 音频 特征 及 定位 
图 9 (a) 中 显示 结果 可 以 看 出 ， 音 频 特 征 在 受到 恶意 攻击 
1 时 ，188~224 帧 的 基 频 丢失 ， 即 188~224 帧 处 被 窜改 出 现 静 
音 ， 可 以 看 出 静音 部 分 被 成 功 在 音频 信号 上 定位 。 图 9 (b) 的 实 
验 结果 显示 ， 音 频 特 征 在 受到 恶意 攻击 2 时 ，76~114 帧 音频 信 
号 被 罕 改 ; 同时 还 可 以 看 出 , 窜改 部 分 被 准确 定位 。 综 上 所 述 ， 
本 文 设计 的 算法 在 恶意 窜改 攻击 下 ， 能 够 较为 准确 地 检测 并 定 
位 音频 信号 被 攻击 的 位 置 。 
5 结束语 
本 文 算法 是 在 音频 内 容 分 析 的 基础 上 ， 对 采用 NSHS 算法 
提取 出 的 具有 代表 音频 内 容 信 息 的 基 频 特征 ， 进 行 K-means 聚 
类 并 编码 为 一 组 长 度 与 降 维 后 的 水 印 图 像 长 度 一 致 的 0-1 序列 ， 
然后 与 水 印 图 像 异 或 ， 从 而 构造 出 二 值 水 印 序列 。 采 用 零 水 印 
算法 没有 改变 音频 的 内 容 ， 保 证 了 算法 具有 良好 的 隐蔽 性 。 实 
验证 明 ， 由 于 音频 基 频 特征 具有 良好 的 稳定 性 ， 所 以 由 基 频 特 
征 构造 出 的 二 值 序列 对 各 种 攻击 具有 良好 的 鲁 棒 性 。 此 外 ， 提 
取出 的 基 频 特征 彼此 间 没 有 直接 关联 ， 在 恶意 窜改 攻击 下 ， 仪 
罕 改 处 的 特征 受到 影响 ， 所 以 由 实验 结果 看 出 ， 本 方案 可 以 达 
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